이산확률 분포

Discrete probability distribution

이산 확률 분포(Discrete probability distribution)

- 이항 분포 binomial distribution
- 포아송 분포, Poisson distribution
- 초기하 분포 hypergeometric distribution
- 기하 분포 geometric distribution

베르누이 분포, 이항 분포

시행의 결과 "값이 성공과 실패 두 가지"만 가지고, 각 시행의 성공 확률이 p, 실패 확률이 1-p인 실험을
베르누이 시행(Bernoulli trial)이라고 부릅니다.
그리고 이 때의 확률 변수 x는 베르누이 분포를 가진다고 하며 수식으로는 다음과 같이 표기한다.
$$$ X\quad \sim \quad Ber(p)\quad \quad Bernoulli\quad Distribution $$$ 이항분포란 n번의 서로 독립적으로 반복된 베르누이 시행 중에서
성공한 횟수를 확률 변수 X라고 놓았을 때, 이 변수 X의 확률 분포를 의미한다.
윷놀이의 예시를 들어보겠습니다.
윷놀이에서 각각의 작대기(?)하나를 던지는 것은 앞면 혹은 뒷면의 두 가지 경우의 수를 가지며
앞면이 나올 확률이 1/2인 (아닐 수도 있지만 1/2로 가정하겠습니다.)베르누이 실행이다.
그리고 윷을 한번 던지는 행위는 이러한 베르누이 시행을 4번 반복하는 것을 의미한다.
이제 앞면이 나온 윷의 개수(성공한 시행의 개수)를 확률변수 X로 놓고 확률을 계산해보면 다음과 같습니다.

X01234
P(X=x)1/164/166/164/161/16

앞면 하나만 나온 도의 경우를 보겠습니다.
이 경우 네 개의 윳 가운데 하나만 앞면이면 되므로 가능한 윳의 경우는 4가지이다.
그리고 하나의 윳만 앞면으로 나올 수 있는 확률은 1/2 x 1/2 x 1/2 x 1/2로 1/16이다.
그러므로 윷을 한번 던졌을 때 도가 나올 확률은 4 x 1/16 = 4/16이며,
이와 같이 각각의 확률 변수의 확률 값을 계산하는 것을 확률 질량 함수라고 한다.
(probability mass function) $$$ f(x)=\left(\begin{array}{c}n\\ x\end{array}\right)p^{x}(1-p)^{n-x} $$$

이러한 확률 변수 X를 이항 분포를 띈다고 한다.
이항 분포의 확률 질량함수를 수식으로 표현하면 아래와 같습니다 $$$ X\quad \sim \quad B(n,p)$$$

카테고리 분포, 다항 분포

이항 분포의 경우 확률 변수 x가 시행의 결과로 실패 혹은 성공 두 가지 경우의 수 밖에 가지지 못하였습니다.
하지만 주사위의 경우 한번 던졌을 때 나올 수 있는 값이 6개나 된다.
이렇게 정수 개의 결과값을 가지는 분포를 카테고리형 분포라고 한다.
주사위의 경우 K=6인 카테고리 분포를 따른다고 표기할 수 있으며,
이를 수식으로 표현하면 아래와 같습니다.
(아래 수식은 윗 수식을 벡터로 줄여서 표현한 것으로 , 두 수식이 의미하는 바는 같습니다.) $$$\begin{align*} & X\sim Cat(x_{1},x_{2},...x_k \quad :\quad \mu_{1},\mu_{2},... \mu_{k}) \\& X \sim Cat(x : \mu) \end{align*}$$$

확률 질량 함수는 아래처럼 표기할 수 있습니다 $$$ \begin{align*} & X\sim Cat(x:\mu )= \left\{ \begin{matrix} \mu_1 \quad \quad if\quad x=(1,0,0,...0) \\ \mu_2 \quad \quad if\quad x=(0,1,...0) \\ \mu_3 \quad \quad if\quad x=(0,0,1,...0) \\ ... \\ \mu_ k \quad \quad if\quad x=(1,0,0,...1) \end{matrix} \right\} \\& Cat(x:\mu)= \mu_1^{x_1}\mu_2^{x_2} ... \mu_K^{x_K} =\prod_{k=1}^K \mu_K^{x_K}\end{align*} $$$

위 수식에서 먼저 각각의 카테고리를 (1, 0, 0, ... 0), (0, 1, 0, ... 0)처럼 one hot encoding을
적용한 것을 볼 수 있다. 그리고 각각의 카테고리일 때 확률이 뮤k임을 표시해준 것이다.
이를 압축해서 표시하면 아래 수식이 되며, ∏ 기호는 파이라고 읽으며 곱셈을 표현해줍니다.

베르누이 시행을 반복하면 이항 분포를 이루는 것처럼 카테고리형 시행을 여러번 반복하면 다항 분포가 된다.
예를 들어 주사위를 N번 던진다고 했을 때, 각 면이 나오는 횟수 집합의 분포가 다항 분포이다.
다항 분포를 수식으로 표현하면 다음과 같습니다. $$$ Mu(x;N,\mu)=\left(\begin{array}{c}N\\ x\end {array}\right)\prod_{k=1}^K \mu_k^{x_K} =\left(\begin{array}{c}N\\ x_1,...x_k\end {array}\right)\prod_{k=1}^K \mu_k^{x_k}$$$

이항 분포의 수식과 크게 다르지 않습니다만 조합을 계산하는 부분이 차이가 납니다.
주사위의 예로 돌아가보겠습니다.
우리는 주사위를 10번 던졌을 때, 1이 1번, 2가 2번, 3이 1번, 4가2번, 5가 3번, 6이 1번 나오는 확률을 계산하고 싶습니다.
이를 벡터로 나타내면 (1, 2, 1, 2, 3, 1)이 된다. 이제 6번을 던졌을 때 x벡터처럼 나올 조합을 계산해야하며,
수식은 아래와 같습니다. $$$ \left(\begin{array}{c}N\\ x_1,...x_k\end {array}\right)= \frac{N!}{x_1!, ... ,x_k!} $$$


포아송 분포

포아송 분포란 고정된 지역, 시간 또는 부피 등에서 관심 있는 사건의 관찰 수 또는 발생 횟수 X를 표현하는데 사용되는 분포이다.
예를 들면 하루 동안 서버에 접속한 사용자 수, 어느 주말 일요일에 발생한 교통사고 사망자 수 등이 있다.
포아송 분포의 확률 질량 함수와 그래프는 아래와 같습니다.
(개인적으로 경영학과 수업에서 큐잉 이론을 배울 때 포아송 분포가 많이 활용되는 것을 보았습니다.) $$$ f(x)=\frac{\lambda^{x} e^{-\lambda}}{x!},\quad x=0,1,... $$$

포아송 분포 (Poisson Distribution)[Ⅳ-42 ]

포아송 분포는 비교적 드물게 일어나는 사상의 확률에 응용되며, 단위 시간이나 단위 공간에서
일어나는 현상을 나타낼 때 포아송 확률분포를 이용한다.
n ≤ 0.1 , n ≥ 6
$$$ P(x,\mu)=\frac{e^{-\mu}\mu^{x}}{x!} $$$ n; 표본크기 , x; 발생횟수 , P; 확률 , np = μ 평균
np < 5 에서 사용 ; 이항분포가 정규분포보다 이항분포에 가까워 진다
평균과 분산은 둘다 μ 입니다 , μ = σ 2

확률 밀도함수

$$$ P(x,\mu)=\frac{e^{-\mu}\mu^{x}}{x!} $$$
평균발생수가 μ 일때 x회가 발생할 확률을 나타낸다

균일 분포(uniform distribution)

확률 변수 X가 어느 구간 (a, b)에서 정의되고, 그 구간에서 확률 밀도 함수가 똑같은 높이의 일정한 확률 분포를 말한다.
U(a,b)라고도 표기하며 확률 밀도 함수와 그 그래프는 아래와 같습니다. $$$ \begin{cases}\frac{1}{b-a} & (a \leq x \leq b) \\0 & (x \lt 0 \quad or \quad x \gt b )\end{cases} $$$

이항분포 (Binomial Distribution)[Ⅳ-44 ]

베르누이 시행 : 반복시행 결과가 오직 두 가지만 나올 수 있는 것으로,
표본 공간은 성공(success)과 실패(failure)로 나타나고 중간은 없음
모집단이 크고, 복원추출을 가정함.
성공확률이 p 인 베르누이 시행을 n 번 독립적으로 반복했을 때 성공 횟수를 x 라 하면
x 의 확률을 얻기 위해 사용된다.
매 시행마다 성공이 일어날 확률은 p 로 일정한다.

확률 밀도함수

$$$ P(x,n,p)=\left(\begin{array}{c}n\\ x\end{array}\right)p^{x}(1-p)^{n-x} $$$ n; 표본크기 , x ; 발생횟수 , P; 확률 , q = 1- p
표본 크기가 모수의 10% 이내일 경우 이용
- 파스칼의 삼각형은 이항정리에서 계수(coefficients)들의 값을 계산하는 데에 사용된다

평균 및 분산

E(x)= μ = np, E(p)= x / n = P
$$$ D(x)=\sigma= \sqrt{np\ (1-P)}, D(p)=\sigma=\sqrt{np\ (1-P)} $$$
P 가 작고 n (16개 이상)이 클 경우에는 정규분포를 사용할 수 있다. (μ = np)
N: Infinite (with Replacement), P; 알려져 있고, n 개를 뽑음

문제; 공급자 P=20% , n= 15개 뽑고 1개까지만 합격 (Sample 검사)
P(x\ \le1)=\ P(x=0) \ P(x=1)\ =\ 0.0035\+\ 0.1309\ =\ 0.1671\
N=200개중 불량 x=20개
E(p)= P = x/n = 20 / 200 = 0.1
D(p)= σ = \sqrt{\frac{\mathrm{p\ (1-P)}}{n}\ }\ =\sqrt{\frac{\mathrm{0.1\ (1-0.1})}{200}\}

▷ 초기하 분포(hypergeometric Distribution)[Ⅳ-48 ]

부접합 수가 알려진 경우에 사용 , 표본 크기가 모수의 10% 이상
표본 추출은 교체하지 않고 (비복원추출)모집단 크기가 작은 경우가 많다
$$$ P(x)=\binom{d}{x}\frac{\binom{N-d}{n-x}}{\binom{N}{n}}$$$ n; 표본크기 , x; 발생횟수 , d; 모집단에서 발생수 N; 모집단의 크기

확률 밀도함수

$$$ P(x,N,n,m)=\binom{m}{x}\frac{\binom{N-m}{n-x}}{\binom{N}{n}} $$$ m; 모집단에서 발생수

평균 및 분산

$$$ \mu= \frac{n m}{N}$$$ $$$ \sigma^{2}=\left(\frac{nm}{N}\right)\left(1-\frac{m}{N}\right)\left(\frac{N-n}{N-1}\right)$$$

▷ 카이제곱(Χ2)분포 Chi-square Distribution.

Ex1)μ = 50σ2= 102
Sample : 51, 49, 42, 53, 57, 50 m=50.33 s= 4.96
$$$ Χ2=n-1S2σ2 = 6-14.962102 = 1.23 $$$ Χ 2 표에서 자유도 5 .Cf : 0.99 0.554(다르다고 할 수 없다.)